Debiasing en tiempo de decodificación mediante modelos de recompensa de proceso: desde el relleno controlado hasta la generación abierta
Descubre técnicas de debiasing en decodificación: desde relleno controlado hasta generación abierta con modelos de recompensa. Optimiza la equidad en NLP.